多模态学习:让 LLM 对话系统 “能看会听” 传统 LLM 对话系统仅依赖文本交互,而多模态学习能融合文本、图像、语音、视频等多种信息,让对话突破 “纯文字” 限制 —— 比如用户发送一张 “猫咪呕吐” 的照片并提问 “它怎么了”,系统能结合图像特征与文本问题,给出更精准的宠物健康建议。这种技术让 LLM 模态 学习 llm 模态模型 llm对话 2025-09-10 03:04 5